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对 混合 属性 数据 表 可 行 的 差分 隐私 保护 方法 


丁 永 善 ， 李 立新 
(信息 工程 大 学 三 院 ,郑州 450000) 


摘 要 : 为 加 强 隐 私 保护 和 提高 数据 可 用 性 ， 提 出 一 种 可 对 混合 属性 数据 表 执 行 差分 隐私 的 数据 保护 方法 。 该 方法 首 
先 采 用 ICMD (insensitive clustering for mixed data) 聚 类 算法 对 数据 集 进 行 聚 类 匿名 ， 然 后 在 此 基础 上 进行 -差分 隐 
私 保护 。ICMD 聚 类 算法 对 数据 表 中 的 分 类 属性 和 数值 属性 采用 不 同方 法 计算 距离 和 质心 ， 并 引入 全 序 函 数 以 满足 执 
行 差分 隐私 的 要 求 。 通 过 聚 类 , 实现 了 将 查询 敏感 度 由 单条 数据 向 组 数据 的 分 化 , 降低 了 信息 损失 和 信息 披露 的 风险 。 
最 后 实验 结果 表明 了 该 方法 的 有 效 性 。 

关键 词 : 混合 属性 ; 聚 类 ; 差分 隐私 ; 敏感 度 ; 隐私 保护 

中 图 分 类 号 : P309 doi: 10.3969/j.issn.1001-3695.2017.08.0729 


Differential privacy protection method for mixed data 


Ding Yongshan, Li Lixin 
(The 3th College, Information Engineering University, Zhengzhou 450000, China) 


Abstract: To enhance privacy protection and improve data availability, this paper proposed a differential privacy data protection 
method ICMD-DP for mixed data. ICMD-DP performed differential privacy on the results of ICMD (insensitive clustering 
method for mixed data) . To satisfy the requirement of maintaining differential privacy, ICMD used different methods to calculate 
the distance and centroid of categorical and numerical attributes and introduced the total order function. The combination of 
clustering and differential privacy realizes the differentiation of query sensitivity from single record to group record. At the 
meanwhile, it reduced the risk of information loss and information disclosure. Finally, this paper gave experiments to illustrate 
the effectiveness of the method. 
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同 质 攻击 ， 使 上 述 模型 难以 应 对 。 攻 击 者 通过 对 用 户 的 准 标志 
符 进行 组 合 应 用 ， 常 常 能 够 确定 特定 用 户 ， 进 而 获取 该 用 户 的 

随 着 互联 网 络 的 发 展 ， 社 交 网 络 上 的 用 户 数 量 剧 增 ， 其 中 ”其 他 隐私 信息 。 因 此 ， 针 对 任意 背景 知识 的 隐私 保护 方法 称 为 
的 用 户 数 据 和 信息 拥有 着 巨大 的 吸引 力 。 数 据 挖掘 者 可 以 从 中 ”该 领域 研究 的 热点 外 Dwork[ 引 提出 了 差分 隐私 保护 模型 并 给 出 
获取 巨大 价值 ， 但 同时 用 户 隐 私 也 面临 着 泄露 风险 帆 。 为 确保 。 了 严格 的 隐私 证 明 ， 该 模型 克服 了 无 法 抵御 任意 背景 知识 攻击 
网 络 用 户 的 隐私 安全 ， 需 要 对 其 进行 保护 。 如 何在 保证 用 户 数 的 缺点 。 但 是 差分 隐私 模型 在 保护 数据 隐私 时 牺牲 了 较 大 的 数 
据 可 用 性 的 前 提 下 ， 最 大 限度 保护 发 布 的 用 户 信息 不 被 攻击 者 。 据 可 用 性 。 
窃取 ， 成 为 用 户 信息 共享 中 的 难点 。 针对 上 述 问题 ， 结 合 聚 类 和 差分 隐私 的 特点 ， 本 文 提出 了 
隐私 保护 的 数据 发 布 (PPDP) 应 该 平衡 考虑 两 个 方面 的 间 ” 针对 混合 型 数据 表 在 发 布 过 程 中 的 隐私 保护 方法 ， 该 方法 假设 
题 :a) 针对 敏感 信息 的 充分 保护 , 消除 用 户 数 据 共享 时 的 顾虑 ; 攻击 者 拥有 全 部 的 背景 知识 ， 能 够 克服 了 背景 知识 不 断 扩大 引 
b) 减少 非 敏感 信息 的 信息 损失 ， 保 证 数据 的 最 大 可 用 性 叫 。 起 的 隐私 保护 模型 不 再 适用 的 缺点 。 该 方法 不 仅 满足 差分 隐私 

anonymity 及 其 扩展 是 进行 用 户 信息 隐私 保护 的 重要 方 。 保护 模型 中 的 隐秘 性 要 求 ， 同 时 保证 了 发 布 数据 的 质量 。 本 文 
法 。k-anonymity 要 求 数 据 记 录 中 至 少 拥有 大 条 在 准 标志 符 上 不 的 主要 工作 有 : a) 改进 MDAV,， 提 出 了 针对 混合 属性 数据 表 的 
可 区 分 的 记录 ， 使 得 攻击 者 无 法 大 概率 地 辨别 出 隐私 信息 的 拥 ” 聚 类 算法 CMD; b) 将 全 序 距离 函数 引入 到 CMD,， 提出 非 敏感 
有 者 ， 从 而 保护 了 用 户 隐 私 喇 。 然 而 , 攻击 者 可 以 通过 挖掘 获得 。 聚 类 算法 ICMD， 以 便 更 好 地 执行 差分 隐私 ; c) 在 聚 类 算法 的 
越 来 越 多 的 背景 知识 ， 产 生 很 多 攻击 变 体 ， 如 背景 知识 攻击 和 ”基础 上 执行 差分 隐私 操作 ， 提 出 了 ICMD-DP 的 差分 隐私 数据 
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发 布 方法 ; d) ; 


和 提高 数据 可 用 性 方面 


通过 实验 , 验证 了 文中 所 提 方 法 在 保护 数据 隐私 


I 有 效 性 。 


1 ”相关 工作 和 预备 知识 


1.1 相关 工作 


随 着 大 数据 和 数 # 


空气 的 兴起 ， 数 据 隐私 保护 的 研究 也 越 


来 越 得 到 重视 。 隐 私 保护 技术 大 致 分 为 噪声 干扰 、 匿 名 发 布 和 


数据 加 密 等 。 其 中 


用 ， 如 Wang 


匿名 技术 在 用 户 数据 安全 方面 发 挥 了 积极 作 


ee 


的 安全 性 等 。 本 文 涉 及 的 


聚 类 匿名 在 数 寺 
成 为 隐私 保护 研究 的 
行 划 分 分 组 ， 使 各 


挖掘 和 数据 分 组 中 发 挥 重 要 作用 ， 同 时 也 
热点 。 聚 类 匿名 的 目的 是 将 不 同 的 对 象 进 
日 之 间 的 相似 度 最 大 ， 组 间 的 相似 度 最 小 。 


匿名 化 是 通过 聚 类 算法 实现 的 ， 即 聚 


左 匿名 算法 是 一 种 分 纪 


日 算法 ， 使 得 每 组 中 的 数据 条 数 至 少 为 k; 


损失 ， 提 高 数据 的 可 用 性 。 
1.2 差分 隐私 保护 

差分 隐私 保护 模型 是 通过 对 原始 数据 集 或 统计 结果 添加 噪 
声 以 达到 隐私 保护 的 目的 。 该 模型 给 出 了 严格 且 强 健 的 隐私 保 
护 证 明 , 可 以 确保 在 数据 集中 更 改 一 条 记录 而 不 影响 统计 结果 ， 
保证 了 数据 集 的 原 有 统计 特性 。 另 外 ， 该 模型 可 抵御 任意 背景 
知识 攻击 外。 

定义 1 假设 数据 集 有 和 p' ,两 者 中 的 一 个 可 以 通过 修改 
另 一 个 的 单一 数据 记录 得 到 ， Range(A4) 为 算法 4 的 值 域 , 若 
算法 4 在 数据 集 p 和 D' 上 的 任意 输出 结果 为 8S(S es Range(4)) 
且 满足 


E> 


Pr[A(D)=S]<e’: xPr[A(D'")= 5S] (1) 

则 算法 4 满足 -差分 隐私 ， 其 中 参数 s 称 为 隐私 保护 预 
算 ，s 越 小 隐私 保护 程度 越 高 ， 同 时 引入 的 噪声 越 大 。 

差分 隐私 保护 技术 具有 序列 组 合 性 和 并 行 组 合 性 上 05。 差分 


MDAV (maximum distance to average vector) 算法 满足 计算 数 


值 属 性 数据 表 的 聚 类 
种 保持 网 络 结构 稳定 
心 法 和 聚 类 划分 的 思 ? 
到 信息 损失 量 和 时 i 
难以 应 对 背景 知识 
击 和 同 质 攻 击 , 保护 特 


竺 名 化 站 。 基 于 左 匿名 ， 文 献 [8] 提 出 了 一 


的 大 度 匿名 隐私 保护 模型, 文献 [9] 结合 人 


是 出 一 种 贪心 聚 类 匿名 方法 ,以 争取 达 
效率 的 最 优化 。 但 上 述 方法 作为 通用 方法 ， 
的 攻击 变 体 。 为 更 好 地 抵御 背景 知识 攻 


定 的 敏感 值 或 全 部 敏感 值 , 文献 [10] 提 出 


了 单 敏 感 值 (&,k) - 
[11] 提 出 了 一 种 新 的 基 
它们 依然 无 法 抵御 任 


分 隐私 保护 的 理论 基 
私 保护 的 应 用 框架 PIN 

Torral3] 针 对 分 类 型 
法 ， 但 它们 只 针对 六 


匿名 模型 和 多 敏感 值 (a,k) -匿名 模型 ， 文 献 
于 (p+,Q) -敏感 匿名 隐私 保护 模型 。 但 
意 背 景 知 识 攻 击 。DworkD5 差 分 隐私 保护 
模型 的 提出 在 一 定 程度 上 解决 了 上 述 问题 ;文献 [12] 介 绍 了 差 


隐私 保护 可 以 通过 添加 拉 普 拉 斯 噪声 干扰 查询 结果 而 实现 。 
定义 2 对 于 查询 函数 /， 若 算法 A 有 


A(D)= jp)r Lop[Y ] 则 算法 4 满足 s- 差分 隐私 。 


其 中 : Af 表示 查询 函数 的 敏感 性 , 指 的 是 查询 函数 f 作用 于 邻 
近 数 据 集 时 产生 的 最 大 距离 差 。 文 献 [16] 给 出 了 添加 拉 普 拉 斯 


噪声 引起 的 误差 eyo = Sf, 


1.3 混合 型 数据 表 中 距离 和 质心 计算 
现 有 数据 表 大 多 数 为 混合 型 数据 表 ， 即 表 中 的 数据 属性 既 


局 提出 了 基于 -modes 的 微 聚 集 算 
一 的 数值 属性 或 分 类 属性 数据 进行 处 理 。 


有 数值 型 又 有 分 类 型 。 针 对 不 同属 性 的 数据 有 不 同 的 距离 计算 


出 和 最 新 研究 进展 ,并 给 出 了 一 个 差分 隐 


Ee integratedqueries)。 


和 质心 求解 方法 。 采 用 单一 的 方法 往往 会 造成 信息 丢失 、 质 心 
偏差 等 问题 ， 因 而 本 文 提出 一 种 针对 混合 型 数据 表 的 距离 计算 


k-prototypes 算法 通过 集成 k-means 和 k-modes 算法 ， 实 现 了 对 


混合 数据 的 聚 类 分 忆 
数据 对 象 和 类 中 心 的 

聚 类 匿名 和 差分 隐 
其 中 ， 文 献 [13] 提 


隐私 保护 方法 ， 


Wa 数 难以 确定 


差分 隐私 ， 但 该 方法 
还 依赖 于 数据 集 大 小 ; 


集 。 本 文通 过 描述 ; 


不 能 客观 反映 


J 结合 在 一 定 程度 上 解决 了 上 述 问 题 。 
出 了 一 种 基于 差分 隐私 保护 的 大 means 聚 类 


和 质心 求解 方法 。 
设 混合 型 数据 集 p 以 及 X,Y 为 数据 集 p 中 的 记录 ,每 一 
记录 上 有 具有 维 分 类 属性 和 gq 维 数值 属性 , 计算 数据 记录 X,Y 的 
距离 D(X,Y) ， 首 先 分 别 计算 其 分 类 属性 距离 4(X,Y). 和 数值 
属性 距离 4(X,Y), 。 定 义 如 下 。 
定义 3 分 类 距离 。 对 于 数据 表 中 的 任意 记录 X,Y, 假设 
数据 表 含 有 p 维 分 类 属性 , 则 记录 x,Y 的 分 类 属性 部 分 的 距离 


是 对 选取 的 中 心 点 和 集合 内 点 之 和 进行 


的 聚 类 可 用 性 不 仅 依赖 于 隐私 保护 预算 ， 
文献 [2] 提 出 了 基于 DBSCAN 聚 类 算法 
的 差分 隐私 数据 保护 方法 ， 但 该 方法 只 作用 于 数值 型 属性 数据 
属性 数据 表 记 录 之 间 的 距离 和 质心 计算 
方法 ， 通 过 改进 MDAV， 提 出 针对 混合 数据 数据 表 并 满足 大 匿 


名 的 非 敏感 聚 类 算法 ICMD(k-anonymity by insensitive clustering 
for mixed data)， 并 在 此 基础 上 进行 差分 隐私 保护 。 


数据 发 布 和 隐私 保护 中 ， 
据 到 组 数据 的 匿名 化 。 对 村 


通过 聚 类 处 理 ， 可 以 实现 单条 数 
聚 类 处 理 过 的 数据 表 进 行 差 分 隐私 保 


护 ， 可 以 将 查询 函数 的 敏感 性 进行 分 化 ， 进 而 减少 数据 信息 的 


定义 为 
d(X,7), = 600,y,) GO) 
Jj=1 


0 (x;=y,)) 

1 Go 关切) 

式 (2) 可 知 ， 每 维 分 类 属性 取 值 [0,1]， 对 于 数值 属性 ， 如 
果 采 用 海 明 距 离 作为 每 维 数据 的 距离 ， 会 导致 分 类 属性 部 分 的 
距离 被 数值 属性 部 分 的 距离 潭 灭 ， 因 而 采用 如 下 定义 计算 数值 
属性 距离 。 

定义 4 “数值 距离 0]。 首先 将 数据 记录 的 数值 属性 部 分 
的 每 一 维 进 行 标准 化 处 理 ， 即 X 第 4g 维 值 为 


其 中 : sc -| 
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XX es , 
dN 其 中 : Xs ”为 该 维 数据 记录 的 最 大 值 ， 


Mmax min 


X4 为 该 数据 记录 的 最 小 值 ， 则 数值 部 分 距离 为 


9 
d(X,Y), = 2(d(X), -ad G3) 
/=1 
定义 5 混合 距离 。 依据 定义 3 和 4 的 结果 , 通过 把 数据 


记录 X,7 的 分 类 属性 和 数值 属性 的 距离 相 加 可 得 它们 之 间 的 
距离 (Sl,， 即 D(X,Y)=4d(X,Y),. +d(X,Y), 。 

定义 6 质心 。 设 7 是 n 维 数 据 集 的 一 个 等 价 类 ,1 是 
等 价 类 7 的 一 条 记录 ， 即 e7,(i=1,2,…,n) ，t* 是 记录 14 的 数 
值 属 性 部 分 ，1* 是 记录 1 的 分 类 属性 部 分 ， 即 
下 = 人) ， 设 pe 是 数值 属性 
{z, ,22} 的 均值 ，y: 是 数值 属性 { ,性 ,cz} 的 泛 化 ， 则 等 价 
类 了 7 的 质心 为 COT) ={t,z} 。 

本 文 分 别 采用 均值 和 泛 化 来 代 蔡 等 价 类 中 的 原始 的 数值 和 
分 类 数据 ， 避 免 了 单一 方法 对 数值 和 分 类 数据 聚 类 时 的 片面 性 
和 误差 ， 保 留 了 更 多 的 语义 。 

2 ”数据 发 布 方法 

针对 混合 属性 数据 表 ， 阅 述 其 距离 和 质心 的 计算 方法 ， 提 
出 一 种 满足 万 匿名 机 制 的 聚 类 方法 ， 然 后 对 聚 类 后 的 数据 添加 
噪声 ,实现 差分 隐私 保护 。 聚 类 操作 减 小 了 查询 函数 的 敏感 性 ， 
进而 可 以 通过 添加 较 小 的 噪声 达到 同样 的 隐私 保护 效果 ， 提 高 
数据 可 用 性 。 
2.1 对 混合 属性 数据 表 可 行 的 聚 类 方法 

本 文 在 MDAVU] 的 基础 上 ， 采 用 1.2 节 的 混合 属性 数据 表 
距离 和 质心 计算 方法 ， 提 出 一 种 对 混合 属性 数据 表 可 行 的 聚 类 
匿名 化 方法 CMD(clustering for mixed data)， 根 据 大 匿名 的 定义 
可 知 ， 该 方法 同时 满足 匿名 机 制 。 

算法 1 聚 类 算法 CMD(D,K) 

输入 : D 为 有 n>2k 条 记录 的 原始 数据 集 ，k 为 聚 类 最 小 尺寸 。 

输出 : 满足 一 匿名 的 聚 类 数据 集 DD'。 


加 


使 用 文献 [19] 的 方法 计算 聚 类 中 心 ， 并 通过 定义 5 的 方法 计算 距 
离 该 中 心 最 远 的 记录 大 和 距 二 最 远 的 记录 9 ， 作 为 两 个 初始 类 中 心 ; 
分 别 计算 距离 上 和 8 最 近 的 大 条 记录 ， 并 将 其 进行 归 类 ， 加 入 到 
数据 集 DD'; 

对 剩 下 的 加 条 记录 ， 若 m > 2k ， 则 对 剩 下 的 数据 记录 重复 步 台 
1、2; 

车 me[k,2k 一 1] ， 则 自 成 一 类 ， 加 入 到 数据 集 DD，; 

否则 ， 将 剩 下 的 加 条 记录 ， 划 归 到 距离 各 自 最 近 的 类 中 ，; 

计算 各 类 的 类 质心 ， 并 用 其 蔡 换 各 类 中 的 数据 记录 ，; 

返回 蔡 换 后 的 数据 表 D'。 

算法 1 返回 的 数据 表 D' 满 足 匿名 机 制 ， 其 中 的 每 个 组 
都 至 少 拥 有 大 条 记录 ， 对 每 组 记录 中 的 数值 属性 和 分 类 属性 ， 
分 别 用 均值 和 泛 化 值 进行 蔡 换 ， 降 低 了 查询 函数 的 敏感 性 。 


浸 


区 


2.2 可 执行 差分 隐私 保护 的 聚 类 改进 方法 

差分 隐私 和 聚 类 算法 提供 了 不 同 的 信息 披露 保护 。 利 用 聚 
类 算法 能 降低 差分 隐私 中 需要 引入 的 噪声 ， 实 现 了 查询 函数 的 
改 感性 分 化 ， 同 时 差分 隐私 保护 能 够 弥补 聚 类 算法 的 不 可 抗 任 
背景 知识 攻击 。 两 者 的 结合 能 够 达到 更 好 的 隐私 保护 结果 ， 
保留 较 好 的 数据 可 用 性 。 
设 M 为 聚 类 函数 ，f 为 查询 函数 ， 为 了 有 效 降低 fo。M 
的 敏感 度 ，M 应 该 满足 对 于 数据 集 D 和 D',( DD 为 原始 数据 集 ， 
万 ' 为 对 万 修改 一 条 记录 后 生成 的 数据 集 )， 其 聚 类 中 心 基 本 稳 
定 ， 那 么 就 要 求 数据 集 D' 聚 类 后 产生 的 所 有 簇 与 原本 相对 应 
的 艇 两 两 之 间 只 有 一 条 记录 不 同 。 本 文 称 这 样 的 聚 类 算法 M 
为 非 敏感 聚 类 ， 只 有 满足 非 敏 感 聚 类 的 聚 类 函数 才能 执行 差分 
隐私 保护 Po。 

定义 7 非 敏 感 聚 类 。 假 设 数据 集 DD ， 聚 类 函数 M，D 
经 M 的 聚 类 结果 {Ci,C,,…,C,}, DD' 为 对 D 只 进行 修改 一 条 记 
录 得 到 的 数据 集 ，{C', CG,…,C,} 为 DD' 经 M 的 聚 类 结果 。 若 聚 
类 结果 {CGC,C,…,C,} 和 {CG,G,…,G,} 对 应 的 簇 中 只 有 一 个 数 
据 记 录 不 同 ， 称 聚 类 算法 M 为 非 敏感 聚 类 。 

为 了 使 聚 类 方法 CMD 满足 非 敏感 聚 类 ， 进 而 可 以 执行 差 
分 隐私 进行 数据 保护 , 需要 改变 其 中 的 距离 函数 DD 为 一 个 全 序 
函数 0。 针对 混 型 性 数据 表 ， 可 通过 如 下 方式 构造 满足 全 序 关 
系 的 距离 函数 。 
假设 数据 表 DD 含有 nn 维 属性 ， 其 中 了 维 分 类 属性 ，g 维 数 
值 属性 ， XY 为 数据 表 DD 中 的 任意 数据 记录 ，Z 为 数据 表 六 的 
聚 类 中 心 , 通过 定义 5 的 距离 公式 计算 距离 Z 最 远 的 数据 记录 ， 
记 为 X, ,并 计算 距离 X, 最 远 的 数据 记录 X, ,定义 数据 表 DD 的 
边界 为 [ X ,X,]， 则 


省 党 


a (dist(x',y )) 
(dist(x, x ) 


D(X,Y)= (4) 


是 满足 全 序 关系 的 距离 函数 。 


6(x',y') 数据 表 D 的 第 ;难为 分 类 属性 
xy | ”数据 表 P 的 第 淮 为 数值 属性 “ 


礁 


se dey) -| 


将 上 述 距 离 函 数 引 入 聚 类 算法 CMD ,构造 满足 非 敏感 聚 类 
的 聚 类 算法 ICMD(InsemsItive CMD)。 


算法 2 非 敏感 聚 类 算法 JCMD(D,K) 

输入 : 刀 为 有 n>2k 条 记录 的 原始 数据 集 , 为 聚 类 最 小 尺寸 。 

输出 : 可 执行 差分 隐私 保护 的 聚 类 数据 集 DD'。 

步骤 : 

计算 原始 数据 集 的 边界 [X,,X, | ; 

分 别 计算 距离 X, 和 X, 最 近 的 大 条 记录 ， 并 将 其 进行 归 类 ， 
到 数据 集 DD'; 

对 剩 下 的 到 条 记录 ， 若 加 > 2k ， 则 对 剩 下 的 数据 记录 重复 步 又 


Ar 


加 入 


车 me[k,2k 一 1] ， 则 自 成 一 类 ， 加 入 到 数据 集 DD'; 
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否则 ， 将 剩 下 的 黄 条 记录 ， 划 归 到 距离 各 自 最 近 的 类 中 ; 

计算 各 类 的 类 质心 ， 并 用 其 蔡 换 各 类 中 的 数据 记录 ，; 

返回 替换 后 的 数据 表 D'。 

对 算法 2 中 的 距离 计算 采用 式 (4) 的 计算 方法 ， 则 ICMD 
满足 非 敏 感 聚 类 算法 定义 ， 可 对 其 结果 执行 差分 隐私 保护 。 
文献 [20] 可 知 , 对 于 查询 函数 fi (返回 数据 集中 的 第 i 条 记录 )， 


有 A oICMD)< 人 2 。 此 可 知 , 原始 数据 集 经 过 


| 


聚 类 分 组 ， 


实现 了 记录 隐藏 和 查询 敏感 性 由 单条 数据 向 组 数据 的 分 化 。 
2.3 ”差分 隐私 保护 数据 发 布 方法 
基于 大 匿名 机 制 的 聚 类 匿名 不 能 够 抵御 背景 知识 攻击 和 同 
质 攻击 ， 为 了 进一步 保护 ， 在 聚 类 的 基础 上 对 数据 记录 添加 品 
声 , 以 达到 差分 隐私 保护 的 目的 。 采 用 文献 [20] 的 方法 添加 拉 普 
拉 斯 噪声 ， 实 现 一 种 对 混合 属性 数据 表 实 施 噪声 扰动 的 数据 保 
护 方法 ICMD-DP(clustering for mixed data with differential 


privacy )。 
算法 3 差分 隐私 保护 算法 ICMD - DPCLD,s) 
输入 : DD 为 有 n>2k 条 记录 的 原始 数据 集 ，2 为 隐私 保护 预算 。 
输出 : 满足 k 一 匿名 的 £6 一 差分 隐私 数据 集 D,。 


步骤 : 
对 数据 集 DD 进行 聚 类 处 理 ICMD(D,k) ， 返 回 数据 集 万 '， 
查询 函数 f; 返回 数据 集 DD' 第 i 条 记录 的 属性 ， 函 数 5S,() 为 查询 
结果 添加 拉 普 拉 斯 噪声 。 则 对 于 ie (1,n)，xX = S,(f(D)，, 将 元 
加 入 数据 集 D,; 

返回 数据 集 D,。 
函数 的 结果 满足 2 一 差分 隐私 ， 又 每 条 查询 针对 
的 记录 不 相交 ， 。， 则 根据 行 性 原则 03 可 知 , 最 终 的 数据 集 D, 满 
足 & 一 差分 隐私 。 

对 于 聚集 尺寸 为 的 数据 和 


DD ,单个 查询 敏感 度 小 于 


流 


入 (PD)A ,并且 有 叹 个 相互 独立 的 查询 ， 因 此 若 要 满足 经 
ICMD-_- DP 差分 隐私 保护 的 数据 查询 敏感 度 小 于 原始 数据 人 


ML 


uy 


的 查询 敏感 度 , 则 需 有 一 一 一 


a 即 k>Vn。 


录 ， 选 取 其 中 不 包含 空 
3.2 ”实验 方法 
采用 和 天 匿名 评估 类 似 的 方法 对 本 文 提 出 的 结合 方案 进行 
评估 ， 包 括 信息 损失 《影响 数据 可 用 性 ) 和 信息 披露 〈 揭 示 隐 
私 保护 程度 ) 两 个 方面 。 
3.2.1 信息 损失 

信息 损失 是 指 匿名 数据 集 和 原始 数据 集 之 间 的 差异 ， 通 
SSE 表示 了 匿名 数 提 
和 原始 数据 集中 所 有 记录 的 属性 距离 的 平方 和 ， 即 


SSE= > >》 (dist(ai, (7 


XjEX cy 
jEX aj ex 


值 的 30 000 条 数据 记录 进行 实验 。 


民 


于 


mi 


] SSE(sum of squared errors) 进 行 度量 P21。 


(| 


其 中 :aj 是 原始 数据 集中 第 j 个 记录 的 第 i 个 属性 ， 


(ai)' 是 匿 


名 数据 集中 第 j 个 记录 的 第 i 个 属性 。 对 于 分 类 属性 和 数值 属 
性 ， 距 离 函 数 dist0 分 别 采 用 式 (2) 和 (3) 进行 计算 。SSE 的 
值 越 大 ， 信 息 损失 越 严 重 ， 数 据 的 可 用 性 越 差 。 
3.2.2 信息 披露 

信息 披露 通过 使 用 匿名 数据 集中 的 记录 成 功 匹 配 到 原始 数 
据 集中 记录 的 概率 进行 度量 ， 又 称 为 记录 关联 (record 
linkages ,RL )。 


> Pr(x,) 

XjE | 3 

RL=100xs (5) 
n 


其 中 : n 是 数据 集中 记录 的 个 数 。 式 (5) 中 的 Pr(x) ) 的 计算 方 
法 如 下 : 


0 ”如 果 x, eG 
Pr(x; y= 1 

一 ”如 果 x, gg G 

加 A 


其 中 : G 是 数据 记录 x' 所 在 的 集合 ， 


如 果 记 录 x， 也 在 集合 G 


中 ， 就 认为 有 概率 画 造成 信 | 


为 了 更 好 地 说 明 本 文 方法 的 有 效 性 ， 计 算 聚 类 算法 CMD 
和 标准 的 < 一 差分 隐私 的 SSE 和 RL 作为 基础 ， 同 时 分 别 计算 
ICMD 以 及 ICMD-DP 的 SSE 和 RL 进行 对 比 。 另 外 & 采用 常 


息 披 露 ， 否则 ， 该 概率 为 0。 


可 知 ， 昌 然 经 聚 类 算法 处 理 将 造成 信息 丢失 ， 但 该 部 分 损失 可 
以 由 敏感 度 降 低 带 来 的 增益 进行 弥补 。 


3 实验 


本 章 将 从 时 间 消 耗 、 信 息 损 失 和 泄密 风 
出 的 方法 进行 实验 分 析 。 
3.1 实验 数据 和 环境 

本 文 实 验 数 据 采 用 UCI 的 Adult 数据 集 


甸 对 文中 提 


生地 
字 寺 力 


取 值 0.01、0.1、1、10，k 取 值 2~500。 
3.2.3 实验 结果 和 分 析 

分 别 以 聚 类 算法 CMD 和 标准 6 一 差分 隐私 算法 为 基准 , 通 
过 调整 的 取 值 ， 做 对 比 实验 ， 结 果 如 图 1 所 示 。 
由 图 1、2 可 知 ， 非 敏感 聚 类 算法 ICMD 比 原始 聚 类 算法 
CMD 造成 更 大 的 信息 损失 ， 但 也 相应 地 降低 了 信息 披露 的 风 
险 ; 在 非 敏感 聚 类 算法 ICMD 的 基础 上 进行 差分 隐私 ， 能 有 交 
降低 信息 披露 风险 ， 起 到 更 好 的 隐私 保护 效果 ， 且 隐私 保护 预 


二 


(http://archive.ics.uci.edu/ml/datasets/Adult )， 该 数据 集 常 用 来 
评估 隐私 保护 方法 。 该 数据 集 为 混合 属性 数据 集 ， 包 含 6 个 数 
值 属性 (如 age、 8 个 分 类 属性 (如 
occupation、native-country 等 共有 48 842 条 数据 记 


hours-per-week 等 ) 和 


等 )， 该 数据 自 


汀 


算 越 小 ， 隐 私 保护 效果 越 明 显 ， 但 同时 也 造成 了 更 大 的 信息 损 
失 。 由 图 3 可 知 ， 随 着 大 值 的 增 大 经 算法 聚 类 后 的 差分 隐私 的 
信息 损失 逐渐 减少 , 上 且 在 人 _ \ 帮 附近 时 和 标准 差分 隐私 具有 相 
似 的 信息 损失 ， 但 当 大 > V5 时 ， 其 信息 损失 量 逐 渐 比 标准 差分 
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隐私 更 小 。 由 


图 4 可知 ,经 聚 类 后 的 差分 隐私 的 信息 披露 更 小 ， 


其 其 


比 标 


%RLflog10) 


SSE*104 


%RL 


史 


准 差分 隐私 具有 更 好 的 数据 保护 效果 。 


SSE(log10) 
a 
2 
9) 
兰 
oD 


2 100 200 300 400 500 


对 


10 


1 不 同 隐私 保护 预算 下 ICMD-DP 与 


CMD、ICMD 的 信息 损失 量 对 比 


对 


2 不 同 隐私 保护 预算 下 ICMD-DP 与 
CMD、ICMD 的 信息 披露 对 比 


3 不 同 隐私 保护 预算 下 ICMD-DP 与 标准 差分 


4 不 同 隐私 保护 预算 下 ICMD-DP 与 标准 差分 


隐私 保护 的 信息 损失 量 对 比 


隐私 保护 的 信息 披露 对 比 


4 


ICMD-DP， 该 方法 将 聚 类 和 差分 隐私 相 结合 ， 
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结束 语 


本 文 提出 一 种 针对 混合 属性 数据 表 可 行 的 数据 发 布 方法 
平衡 数据 可 用 性 


K 


和 隐私 保护 之 间 的 矛盾 .ICMD-DP 通过 聚 类 匿名 后 执行 差分 隐 


私 ， 
在 MDAV 的 基础 上 提出 了 对 于 混合 数据 表 的 聚 类 算法 CMD; 


降低 了 信息 披露 的 风险 ， 同 时 增加 了 数据 可 用 性 。 首 先 ， 


其 次 ,为 了 更 好 地 执行 差分 隐私 , 将 全 序 距离 函数 引入 到 CMD， 
提出 非 敏 感 聚 类 算法 ICMD 并 将 ICMD 的 执行 结果 作为 输入 ， 
执行 差分 隐私 进行 数据 保护 ， 最 后 ， 通 过 实验 分 析 了 该 方法 在 


混合 属性 数据 表 上 保护 | 


户 隐 私 和 提高 数据 可 |) 


性 上 的 有 效 性 。 
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